[2024年10月2日号]個人的に気になったModern Data Stack情報まとめ

[2024年10月2日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.10.02

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Data Extract/Load

Airbyte

Airbyte 1.0がリリース

Airbyte初のメジャーバージョンである1.0がリリースされました。

https://docs.airbyte.com/release_notes/v-1.0

https://airbyte.com/blog/1-0-prime-time

目ぼしい新機能としては、以下が挙げられると思います。

  • Connector BuilderのAI Assistant(Open Betaとして提供)
    • APIのドキュメントURLを入れるだけで、自動でコネクタを生成する機能
  • Connector Marketplace
    • コミュニティが作成したコネクタを利用するだけでなく、自身も作成したコネクタを提供できる機能
  • Self-Managed Enterpriseの一般提供開始
    • ユーザー自身の環境にホストできるAirbyte(Airbyte社のサポートがある)

これらの新機能の詳細は下記のブログも併せてご覧ください。

https://airbyte.com/blog/1-0-long-tail

https://airbyte.com/blog/1-0-enterprise-ga

Data Warehouse/Data Lakehouse

Snowflake

Fine-tuningされたLLMをデータシェアリングの仕組みで別のSnowflakeアカウントに共有できるように ※プレビュー

Fine-tuningされたLLMのモデルをデータシェアリングの仕組みで別のSnowflakeアカウントに共有できる新機能が発表されました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-10-10-cortex-finetuning-sharing

Fine-tuningを行ったLLMのモデルに対するUSAGE権限を付与するだけで、これまでのSnowflakeのシェアリングの仕組みを使って共有できるようです。

https://docs.snowflake.com/en/user-guide/snowflake-cortex/cortex-finetuning#sharing-models

Feature Storeが一般提供

Feature Storeが一般提供となりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-09-25-feature-store-ga

https://docs.snowflake.com/en/developer-guide/snowflake-ml/feature-store/overview

Feature Storeに関しては下記のQuickstartも公開されています。私も初耳だったのですが、dbt経由でFeature Storeを利用することもできるみたいです!

https://quickstarts.snowflake.com/guide/develop-and-manage-ml-models-with-feature-store-and-model-registry/index.html?index=../..index#0

https://quickstarts.snowflake.com/guide/getting-started-with-feature-store-and-dbt/index.html?index=../..index#0

Snowpark-optimized Warehouseで使用するメモリやCPUをユーザー側で指定できるように ※プレビュー

Snowpark-optimized Warehouseの新機能として、使用するメモリやCPUをユーザー側で指定できるようになりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-09-26-sow-resource-constraints

下記は公式ドキュメントからの引用ですが、このようなクエリでメモリやCPUを指定できるようになっています。

CREATE WAREHOUSE so_warehouse WITH
  WAREHOUSE_SIZE = 'LARGE'
  WAREHOUSE_TYPE = 'SNOWPARK-OPTIMIZED'
  RESOURCE_CONSTRAINT = 'MEMORY_16X_X86';

2024-10-02_06h54_06

BigQuery

operational health dashboardが一般提供

スロットの使用状況、シャッフルの使用状況などを確認できるoperational health dashboardが一般提供となりました。

https://cloud.google.com/bigquery/docs/admin-resource-charts#monitor-operational-health

下図は上記のドキュメントからの引用ですが、このような形式で確認することができます。

admin-summary-view

admin-detailed-view

MotherDuck/DuckDB

DuckDB 1.1に関する解説記事

DuckDB 1.1は2024年9月9日にリリースされましたが、そのアップデート内容に関して解説する記事が出ていました。

Secretが必要なAPIにDuckDBからアクセスできる機能、EXPLAINコマンドの結果を図示してHTMLとして出力、といった機能が個人的に気になりました。

https://motherduck.com/blog/duckdb-110-hidden-gems/

Data Transform

dbt

dbt Explorer上でモデルのクエリ実行数がわかる機能がリリース ※プレビュー

dbt Cloud Enterpriseエディション限定の機能となりますが、dbt Explorer上でモデルのクエリ実行数がわかる機能がリリースされました。

https://docs.getdbt.com/docs/collaborate/model-query-history

model-consumption-lenses

dbt 1.9でリリース予定の機能が徐々に判明中

まだ未確定情報もありますが、dbt 1.9でリリース予定の機能が徐々にわかってきております。

  • constraintsforeign_keyを入れることができるように
  • incremental modelで新しいincremental_strategyであるmicrobatchが実装予定(参考:GitHubのDiscussion

SDF

Impact Analysis機能を発表

SDFが新機能として、Impact Analysisという機能を発表しました。

プルリクエスト発行時に影響のある下流のモデルとそのカラムの一覧をリストアップしてくれる機能です。

https://blog.sdf.com/p/introducing-impact-analysis-streamlining

Semantic Layer

Cube

Cube CoreでPlayground 2.0とChart Prototypingを利用できるように

CubeのOSS版であるCube Coreで、Playground 2.0とChart Prototypingを利用できるようになると発表されました。v0.36から利用できるようです。

https://cube.dev/blog/introducing-playground-2-0-and-chart-prototyping-in-cube-core

Playground 2.0はクエリした結果に対して簡易的なグラフを書いて検証できる機能で、Chart PrototypingはPlayground 2.0で可視化したグラフをEnbedするためのコードを生成できる機能です。

https://cube.dev/docs/product/workspace/playground

https://cube.dev/docs/product/workspace/vizard

Notebooks

Hex

大規模なパフォーマンス改善を実施

Hexがアーキテクチャを刷新して大規模なパフォーマンス改善を実施したというリリースが出ていました。

  • 不要なpandas DataFrameの作成をスキップすることで、実行速度が最大5~10倍に
  • 100個以上のセルを読み込む場合のレンダリングが最大90%高速化

下記のリリースノートではどのようなアーキテクチャ変更を行ったかの説明もあります。気になる方はこちらも併せてご覧ください。

https://learn.hex.tech/changelog

Business Intelligence

Looker

Looker内でのGemini in Looker機能がリリース ※プレビュー

現在はGoogle Cloud Core版のLookerだけですが、Looker内でのGemini in Lookerの機能がリリースされました。

ThoughtSpot

CEOがKetan Karkhanis氏に

ThoughtSpot社の新しいCEOとして、Ketan Karkhanis氏が就任されるというブログが投稿されていました。

このブログによると、Ketan氏は元々SalesforceでSales CloudのGM兼EVPを務めており、Salesforce Einstein Analyticsを立ち上げから3億ドル以上の売上に成長させた実績があるとのことです。

https://www.thoughtspot.com/blog/welcoming-our-new-ceo-ketan-karkhanis

Codatum

KARTEなどを提供するプレイド社のグループ会社より「Codatum」がリリース

KARTEなどを提供するプレイド社のグループ会社より「Codatum」というサービスがリリースされました。

Notebook機能も持っており、既存のサービスでいうとHexと近い印象を受けました。

https://codatum.jp/

https://prtimes.jp/main/html/rd/p/000000001.000148801.html

Data Catalog

Select Star

2024年9月のリリース内容まとめ

Select Starより、2024年9月のリリース内容がまとめて投稿されていました。

個人的には、上流のテーブルに品質問題があったときに「Data Quality」タブで確認できる機能、Salesforceとの統合(Beta)、が気になりました。

https://docs.selectstar.com/changelog/september-30-2024-upstream-data-quality-issue-tracking-and-5-new-integrations

Data Quality・Data Observability

Monte Carlo

Monte Carloが6四半期連続でG2の「Data Observability Platform」分野で1位を受賞

Monte Carloが6四半期連続でG2の「Data Observability Platform」分野で1位を受賞したと、Monte Carlo社の公式ブログから記事が出ていました。

https://www.montecarlodata.com/blog-monte-carlo-recognized-as-the-1-data-observability-platform-by-g2-for-6th-consecutive-quarter/

Data Orchestration

Airflow

Astronomer社のCosmosが1.6.0をリリース

Astronomer社のCosmosが1.6.0をリリースしました。

https://www.astronomer.io/blog/introducing-cosmos-1-6/

Kestra

Kestraの最新バージョン0.19.0がリリース

Kestraの最新バージョンとして0.19.0がリリースされました。

個人的には、UIの日本語表記に対応したこと、キーバリュー形式で保持した値で動的にワークフローの設定を切り替える機能、が気になりました。

https://kestra.io/blogs/release-0-19

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.